PCA (do ingles, \(Principal\) \(Componets\) \(Analysis\)) é uma técnica para análise multivariada introduzida por Pearson (1901), que se tornou popular devido aos avanços tecnologicos ocorridos nos últimos anos. Este método foi desenvolvido por Hotelling (1933) … , e tem como ideia principal reduzir a dimensionalidade de um conjunto de variáveis altamente correlacionadas, mantendo grande parte da variabilidade.

A redução do número de variáveis é feita pela obtenção de um novo conjunto de variáveis com a mesma dimensionalidade, obtidas a partir das iniciais por meio de uma combinação linear, em que as novas variáveis, denominadas componentes, são obditas de modo que possam ser ordenadas por suas variâncias da maior para a menor. Assim, tem-se o primeiro componente retendo a maior parte da variabilidade contida no conjunto de variáveis originais, o segundo componten retém a segunda maior variabilidade e assim por diante, até a n-ésima componte, a qual retém a menor quantidade da variabilidade total.

A fim de ilustrar a técnica, suponha um vetor de p variáveis \(\textbf{X}=X_1, X_2, \cdots, X_p\). Se \(p=2\), estuar a estrutura de covariâncias ou a correlação entre as variáveis torna-se uma tarefa simples. Veja um exemplo com dados coletados a partir de uma planta de cimento, em que são consideradas \(p=5\) variáveis.

names(df)=c("Total Feed","Hoper","Temp","Grind" ,"FlyA2","Gypsum","Clinker","Limest","Slang", "Iwater")
head(df)
##   Total Feed Hoper   Temp Grind FlyA2 Gypsum Clinker Limest Slang Iwater
## 1      47.61  6.51 141.73    67  0.04   2.45   25.34   1.43 18.38      0
## 2      62.01  3.61 140.18    77  0.09   2.71   36.12   2.34 20.73     10
## 3      65.48  4.41 139.83   121  0.07   2.76   38.15   2.63 21.85     55
## 4      65.60  5.76 140.12   108  0.07   2.71   38.55   2.69 21.58     55
## 5      65.54 12.61 140.05    95  0.06   2.72   38.84   2.59 21.31      0
## 6      65.76  5.52 140.55    79  0.07   2.72   38.64   2.63 21.66     40

Suponha que se queira estudar a relação entre as variáveis: \(X_1=\)“Clinker” e \(X_2=\)“Slang”, usando as observações desse conjunto de dados. Neste caso, a vizualizar graficamente o comportamento das variáveis no conjunto de dados é simples, basta construir um grafico de dispersão simples.

plot(Clinker,Slang)

A partir do grafico pode-se notar uma tendencia linear, sugerindo que uma reta poderia ser adequada para modelar o relacionamento entre \(X_1\) e \(X_2\). Suponha agora que se queira estudar o comportamento em conjunto de \(X_1\), \(X_2\) e \(X_3\)=“Limest”. Neste caso ainda é possível visualizar o comportamento em conjunto das três variáveis em um gráfico.

plot_ly(type = "scatter3d",
        mode = "markers",
        swiss, x = Clinker, y = Slang, z = Limest, 
         size = 4)

A visualização do comportamente das variáveis em um conjunto de dados não é possível de feita usando gráficos de dispersão comuns. Assim, uma exploração desses reslacionamentos pode ser feita fazendo uso de tecnicas como a análise de componentes principais.

Com o propósito de ilustrar essa tecnica, considere o vetor de variáveis \(\textbf{X}=X_1, X_2, X_3\), conforme visto anteriormente, \(p=3\). Desta forma, tem-se \(1/2p(p-1)=6\) elementos distintos na matriz de variâncias e covariâncias, assim como seis elementos disintos na matriz de correlação. Esta última par os dados apresentados anteriormente, é mostrada a seguir.

X=cbind(Clinker,Slang,  Limest)
V = cor(X)
V
##             Clinker     Slang      Limest
## Clinker  1.00000000 0.1583233 -0.03428425
## Slang    0.15832334 1.0000000  0.50535770
## Limest  -0.03428425 0.5053577  1.00000000

A matriz de convariâncias irá apresentar em sua diagonal as variâncias amostrais das variáveis \(X_1, X_2, X_3\) e fora da diagonal as covariâncias entre cada par delas, enquanto a matriz de correlação apresenta as correlações entre cada par fora da diagonal e uns na diagonal. A correlação é uma função das variâncias, e covariâncias, sendo muito útil para facilitar a interpretação. A correlação é um número sempre entre -1 e 1, sendo que valores próximo dos extremos -1 ou 1 indica forte relação linear entre o par de variáveis, por outro lado, valores de correlação próximos de 0 indicam relacionamento linear fraco.

Agora, o objetivo é obter um “novo” conjunto de variáveis, \(Y_1,Y_2,Y_3\), denominadas componentes, utilizando para isso a matriz de covariancias ou a matriz de correlação das variáveis originais. Logo, cada variável é obtida de modo que seja uma combinação linear das variáveis iniciais, ou seja:

\[ \begin{array}{ccc} Y_1&= &r_{11} X_1 + r_{12} X_2 + r_{13} X_3 \\ Y_2&= &r_{21} X_1 + r_{22} X_2 + r_{23} X_3\\ Y_3&= &r_{31} X_1 + r_{32} X_2 + r_{33} X_3 \\ \end{array} \]

Aqui,

\[ \textbf{R}=\left(\begin{array}{ccc} r_{11} &r_{12} & r_{13} \\ r_{21} & r_{22} & r_{23}\\ r_{31} & r_{32}& r_{33} \\ \end{array}\right) \] é denominada matriz de rotação, criada de modo que \(Y_1,Y_2,Y_3\) sejam ortogonais (independentes) e

\[Var(Y_1) > Var(Y_2) > Var(Y_3),\] ou seja, as novas variáveis são contruídas com base na maximização das variâncias. Para obter \(Y_1\) encontra-se \(\textbf{r}_1=(r_{11}, r_{12}, r_{13})\)

\[\underset{r_1}{\operatorname{argmax}} \left( Var (Y_1) \right)=\underset{r_1}{\operatorname{argmax}} \left( Var (r_{11} X_1 + r_{12} X_2 + r_{13} X_3) \right),\]

sugento a restrição \[\textbf{r}_1'\textbf{r}_1=r_{11}^2 + r_{12}^2 +r_{13}^2=1\]

Para ilustrar o objetivo, observe que a ideia é obter \(Y_1\) rotacionando o eixo cartesiano de modo que as variáveis obtidas sejam ortogonais. Assim, deve-se obter o primeiro eixo na direção da maior variabilidade no conjunto de dados.

Seja \(\textbf{V}\) a matriz de variâncias e covariâncias ou de correlação de \(\textbf{X}=X_1, X_2, X_3\) \[\underset{r_1}{\operatorname{argmax}} \left( Var (r_{11} X_1 + r_{12} X_2 + r_{13} X_3) \right)=\underset{r_1}{\operatorname{argmax}} \left( \textbf{r}_1' \textbf{V}\textbf{r}_1 \right)\]

Pearson, K. (1901) On lines and planes of closest fit to systems of points in space. Phil. Mag. (6), 2, 559–572.

Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. J. Educ. Psychol., 24, 417–441, 498–520.

Hotelling, H. (1936). Simplified calculation of principal components. Psychometrika, 1, 27–35.

Hotelling, H. (1957). The relations of the newer multivariate statistical methods to factor analysis. Brit. J. Statist. Psychol., 10, 69–79.

\[ \left(\begin{array}{cc} Y_1& r_{11} X_1 + r_{12} X_2 + r_{13} X_3 \\ Y_2& r_{21} X_1 + r_{22} X_2 + r_{23} X_3 Y_3& r_{31} X_1 + r_{32} X_2 + r_{33} X_3 \\ \end{array}\right) \left(\begin{array}{cc} 10 & 0\\ 0 & 5 \end{array}\right) \]